자연 언어 처리 (문단 편집)

=== 정보 검색 ===
Information Retrieval. IR.

[[구글]]로 대표되는 [[검색 엔진]]을 만드는 학문. 최근 10년간 가장 빠르게 발전하였고, 돈도 많은 분야.

넓은 의미로는 수 많은 문서 중에서 유저가 원하는 문서를 빠른 속도로 찾아내는 과정을 말한다. 윈도 시스템의 검색기능부터 온라인 검색엔진까지 전부 해당 된다. 발상은 도서관 관리 시스템에서 시작 되었다고 한다. 좁은 의미로 [[웹]]상의 텍스트 기반 문서 검색을 말한다. 유저가 던져주는 단서를 [[질의]](query)라고 부르며 빠른 검색을 위하여 [[색인]]이 사용된다. [[색인]]은 말 그대로 구글의 경우 [[웹]]상의 모든 문서를 단어 별로 쪼갠 다음 uni-gram, bi-gram, tri-gram 등등 으로 묶어서 해당 gram이 어떤 문서에 포함되어 있는지 링크를 저장한다. gram의 의미는 연속된 부분의 묶음을 뜻한다. uni-gram은 한 개 단어, bi-gram은 연속된 두 단어 등. 예를 유저가 "나무위키 정보검색"이라는 [[질의]]를 던지면 검색 시스템은 "나무위키"라는 단어가 포함되는 문서리스트와 "정보검색"이라는 단어가 포함된 문서리스트를 불어온다음 교집합을 구하고 연관도에 따라 랭킹하여 보여준다. 물론 실제 과정은 이보다 훨씬 복잡하며 한국어의 경우 단어 보다는 음절 gram을 사용한다. 빠른 검색을 위하여 [[색인]]의 구현이 관건이다. 윈도우 시스템의 검색기능은 잘 보면 시스템 설정에 색인허용이라는게 있다. 이걸 하면 사전에 [[색인]]을 만들어 검색을 빠르게 하는데 문제는 이로 인해 시스템 자원을 잡아먹어 사양이 안 좋은 컴퓨터는 굉장히 느려진다. 저사양 컴퓨터를 위한 윈도우 8.1/10 최적화 팁 문서를 보면 항상 등장하는 항목이기도 하다. 상용 검색엔진은 [[색인]]을 On-disk [[B Tree]] 또는 유사한 [[해시]]를 사용한다. 소문/루머에 의하면 구글에서는 [[색인]]을 램 파일 시스템이라고 부르는 특수한 파일 시스템에 구현했다고 한다(램 디스크와는 다르다). [[HDD]] 대신 램에다 전세계 웹 문서를 때려박았다는 의미다. 그 밖에 정확한 검색을 위해서는 [[질의]]와 [[문서]] 간 유사도 계산을 개선하는 방법이 있는데 현재까지 정보검색 연구의 주된 주제이다.

이 밖에 Content-based IR 또는 Multimedia IR이라고 하여 텍스트 외에 이미지, 음성, 음악 등을 질의로 사용하는 검색 시스템이 있다. 구글의 이미지 검색이 하나의 예가 된다. 과거에는 MIT 미디어 랩의 한 학생이 멜로디를 흥얼거리기만 해도 해당 노래를 찾아주는 시스템을 만들어 화제가 되기도 했다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

자연 언어 처리 (문단 편집)

캡챠